Unificación de la alineación y asignación de valores en el aprendizaje por refuerzo fuera de línea entre dominios con conjuntos de datos heterogéneos
Unifica la alineación y asignación de valores en RL offline entre dominios heterogéneos para mejorar la transferencia y el rendimiento.